查看原文
其他

如何让大模型更聪明?《2024年人工智能指数报告》- 2.12 LLM改进技术

renee创业狗 Renee 创业随笔
2024-10-09

报告的2.12章节讲述了如何通过prompt、fine-tuning、Attention等技术来提高模型性能。

1. Prompting

Prompting是AI处理流程中的一个关键环节,它涉及向模型提供描述其应执行任务的自然语言指令。掌握编写有效prompt的艺术,可以显著提高LLM的性能,而无需对模型进行底层改进。

我之前也分享过很多与prompt相关的内容(ChatGPT prompt 书写指南 🧭),不过报告中包含了一些我之前未曾学习的新信息,今天我将补充学习一下。

1.1 Graph of Thoughts Prompting

“思维链”(CoT)(这个之前的文章如何让LLM更聪明也分享CoT)和“思维树”(ToT)是可以提高LLM在推理任务上表现的prompting方法。2023年,欧洲研究人员引入了另一种称为“思维图”(GoT)的prompting方法,这种方法也显示出了潜力。GoT使LLM能够以更灵活、类图结构的方式模拟其思维,这更接近人类的实际推理过程。

研究人员随后设计了一个模型架构来实施GoT,并发现与ToT相比,它在一个排序任务上的输出质量提高了62%,同时降低了约31%的成本。

1.2 Optimization by PROmpting (OPRO)

DeepMind发表的一篇论文介绍了“通过Prompt进行优化”(OPRO),这是一种利用LLM迭代生成prompt以改善算法性能的方法。OPRO通过自然语言引导LLM基于问题描述和先前的解决方案创造新的prompt。

例如:

  • 第二步:“让我们仔细考虑问题并共同解决它。”,训练准确率为63.2;
  • 第四步:“让我们分解它!”,训练准确率为71.3;
  • 第五步:“让我们计算出解决方案!”,训练准确率为73.9;
  • 第六步:“让我们来做数学题!”,训练准确率为78.2。

这些生成的prompt旨在提高AI系统在特定基准上的性能。与其他如“一步步来思考”或空白起点的prompting方法相比,OPRO在几乎所有23个BIG-bench Hard任务上显著提高了准确性。

2. Fine-Tuning

Fine-tuning作为增强LLM性能的方法越来越受欢迎,涉及在较小的数据集上进一步训练或调整模型。Fine-tuning不仅提升了模型的整体性能,还增强了模型在特定任务上的能力,并允许对模型行为进行更精确的控制。

之前也介绍过OpenAI的fine-tuning API(GPT-3.5 Turbo fine-tuning (微调功能)发布啦~),今天看一下QLoRA:

2.1 QLoRA

QLoRA,由华盛顿大学的研究人员在2023年开发的新方法,旨在提高模型fine-tuning的效率。它显著减少了内存使用量,使得在单个48GB GPU上fine-tuning一个650亿参数的模型成为可能,同时保持完整的16位fine-tuning性能。为了对比,fine-tuning一个同等规模的领先开源LLM,如65B Llama模型,通常需要约780GB的GPU内存。因此,QLoRA的效率几乎提高了16倍。

QLoRA通过诸如4位NormalFloat(NF4)、双重量化和页面优化器等技术,显著提高了效率。QLoRA用于训练名为Guanaco的模型,该模型在Vicuna基准测试(一种评估LLM输出的基准)中的表现匹配甚至超过了如ChatGPT等模型。

值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的fine-tuning就创建成功。QLoRA突显了优化和进一步改进模型的方法变得更加高效,意味着制造更有能力的模型将需要更少的资源。

3. 注意力机制

虽然LLMs能够灵活处理各种任务,但它们通常需要大量的计算资源进行训练。如前所述,高昂的训练成本可能阻碍AI的更广泛应用。优化方法旨在通过改进内存使用等方式提高AI的效率,从而使LLM更加易于获取和实用。

3.1 Flash-Decoding

由斯坦福大学研究人员开发的Flash-Decoding,通过加速注意力机制来解决传统LLM在处理长序列任务时的低效问题。它通过并行加载键和值,并分别重新缩放和组合它们来实现,以保持正确的注意力输出。

在各种测试中,Flash-Decoding的性能超过了其他领先方法,如PyTorch Eager和FlashAttention-2,显示出更快的推理速度:例如,在256的批大小和256序列长度上,Flash-Decoding比PyTorch Eager快48倍,比FlashAttention-2快6倍。

例如,像ChatGPT这样的模型每次回应的推理成本为0.01美元,当向数百万用户部署此类模型时,成本可能变得非常昂贵。像Flash-Decoding这样的创新对于降低AI的推理成本至关重要。(省钱🤑了)

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存